EVOC 20 TrackOscillator の「U/V Detection」パラメータ

人間の話し声は、有声音(高低のある音またはフォルマント)と無声音で構成されています。有声音は声帯が振動して出ますが、無声音は唇や舌、口蓋、喉、喉頭などで空気の流れを妨げて作るものです。

有声音と無声音が混ざった音声を分析信号としてボコーダーに与えても、その違いが合成エンジンに伝わらず、弱々しい人の声のようになってしまいます。この問題を回避するには、ボコーダーの合成セクションに何らかの工夫を加えて、有声音と無声音が区別されるようにする必要があります。

EVOC 20 TrackOscillator には、U/V ディテクターが組み込まれています。分析信号から無声音の部分を検出し、合成信号の対応する部分を雑音に置き換える、あるいは雑音と合成信号を重ねる、または元の信号と重ねるという処理を行います。U/V ディテクターが有声音を検出した場合は、その情報を合成セクションに伝え、有声音の部分については通常の合成信号をそのまま使います。

フォルマントについての基礎知識

フォルマントとは、サウンドの周波数スペクトルのピークのことです。人間の声に関して使われる場合、フォルマントは人間がさまざまな母音を区別するための主要要素であり、区別はこのサウンドの周波数にのみ基づきます。人間の話し声や歌声におけるフォルマントは、声道によって作られます。ほとんどの母音には、4 つ以上のフォルマントが含まれています。

図。U/V 検出パラメータ。

U/V 検出パラメータ